标签【python spider】

(七) 爬虫之爬取视频和音频文件

　　之前都是爬取网页中的文本信息，没有爬取过视频和音频文件，所以爬取了下b站和网易云音乐，记录下整个过程，留着学习。 1. 爬取b站视频　　1.1 网页分析　　最近python机器学习比较火 ...

用urllib2抓取图片的时候，部分request报HTTP Error 400: Bad Request 参照：https://stackoverflow.com/question ...

在网上看到的教程，但是我嫌弃那个教程写的乱（虽然最后显示我也没高明多少，哈哈），就随手写了一个主要是嫌弃盘搜那些恶心的广告，这样直接下载下来，眼睛清爽多了。用pyinstall 打包成EXE文 ...

python爬虫：读取PDF

下面的代码可以实现用python读取PDF，包括读取本地和网络上的PDF。 pdfminer下载地址：https://pypi.python.org/packages/source/p/pdfmin ...

1.用于爬取58上的租房信息，限成都，其他地方的，可以把网址改改； 2.这个爬虫有一点问题，就是没用多线程，因为我用了之后总是会报： 'module' object has no attribute ...

python爬虫：爬取凤凰指数

在知乎上看到的这个问题，讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面，在其他项目中用循环一般可以搞定，可是这个，第一页和第二第三页的表格是不同的，所以要重新写规则，我懒，写了第一页后，就不 ...

(八）爬虫之js调试（登陆知乎）

　　上次爬取网易云音乐，折腾js调试了好久，难受。。。。今天继续练练手，研究下知乎登陆，让痛苦更猛烈些。 1.简单分析　　很容易就发现登陆的url=“https://www.zhihu.com/ ...

这个是帮朋友做的，难点就是他们有一个反爬虫机制，用request一直不行，后面我就用selenium直接把网页copy下来，然后再来解析本地的html文件，就木有问题啦。现在看来，写得有点傻，多包 ...

...

requests和BeautifulSoup模块的使用

　　用python写爬虫时，有两个很好用第三方模块requests库和beautifulsoup库，简单学习了下模块用法： 1，requests模块　　Python标准库中提供了：urllib、 ...